# 导入用于模式匹配的库
import re


def preprocessor(text):
    # 移除用户提及
    text = re.sub(r'@[A-Za-z0-9]+', '', text)
    text = re.sub('[^\u4e00-\u9fa5]+', '', text)
    # 移除主题标签
    # text = re.sub(r'#[A-Za-z0-9]+','',text)

    # 分割单词以去除额外空格
    tokens = text.split()

    # 以空格连接单词
    return " ".join(tokens)


